| WIN% | FG% | 3P% | FT% | PTS |
|---|---|---|---|---|
| 0.841 | 0.473 | 0.373 | 0.747 | 103.1 |
| 0.780 | 0.504 | 0.370 | 0.769 | 103.1 |
| 0.695 | 0.467 | 0.353 | 0.752 | 100.9 |
| 0.744 | 0.453 | 0.364 | 0.719 | 94.8 |
| 0.683 | 0.446 | 0.360 | 0.763 | 94.8 |
| 0.659 | 0.464 | 0.388 | 0.745 | 94.2 |
Projekt 1. PCA i MDS
1 Wstęp
1.1 Temat projektu
Dla wybranego zestawu danych wykonać rzetelną PCA oraz MDS. Porównać uzyskane wyniki. W ramach zadania należy przeprowadzić krótką EDA dla wybranego zestawu danych, w sposób edukacyjny opisać poszczególne kroki analizy w obu technikach (w szczególności można wybrać więcej niż jedną technikę MDA) i w podsumowaniu opisać zalety i wady obu podejść, jednocześnie próbując porównać uzyskane wyniki.
1.2 Objaśnienia:
PCA
Principal Component Analysis. Analiza składowych głównych to narzędzie wykorzystywane do zmniejszenia wymiaru danych.
Celem PCA
jest wyjaśnienie większości zmienności w zbiorze danych przy użyciu mniejszej liczby zmiennych.
Idea
znalezienie nowego układu współrzędnych, czyli składowych głównych będących liniowymi kombinacjami oryginalnych zmiennych, które będą wyjaśniały jak największą część zmienności w danych.
PCA ma sens tylko, gdy dane są w istotnym stopniu skorelowane.
MDS
Multidimensional Scaling (skalowanie wielowymiarowe) to metoda wizualizacji i redukcji wymiarów danych, której celem jest odwzorowanie obiektów w przestrzeni o mniejszej liczbie wymiarów, tak aby odległości między nimi były jak najbardziej zbliżone do oryginalnych odległości w wyższowymiarowej przestrzeni.
Celem MDS
jest zachowanie relacji między obiektami (np. odległości lub podobieństw) w zredukowanej przestrzeni wymiarów, umożliwiając łatwiejszą interpretację danych.
Idea
polega na minimalizacji różnicy (współczynnika STRESS-u) między oryginalną macierzą odległości a odległościami w nowej, niżej wymiarowej przestrzeni, dzięki czemu struktura danych pozostaje zachowana.
1.3 Dane
Dane użyte w projekcie to statystki drużyn NBA z lat 1996-97.
Źródło: https://www.nba.com/stats/teams/traditional?Season=1996-97
Zmienne:
1) L.P -> liczba porządkowa
2) Team -> nazwa drużyny
3) WIN% -> procent wygranych
4) FG% -> procent celnych rzutów z pola
5) 3P% -> procent celnych rzutów za 3 punkty
6) FT% -> Procent rzutów wolnych
7) PTS -> zdobyte punkty
2 EDA
2.1 Dane:
Do analizy PCA i MDS wykorzystuje się tylko dane numeryczne, a więc do dalszego badania wezmę pod uwagę zmienne: WIN%, FG%, 3P%, FT%, PTS. Obecna struktura danych posiada 5 kolumn oraz 29 wierszy.
Poniżej pierwsze 6 rekordów:
2.2 Statystyki opisowe
| Średnia | Mediana | Min | Max | Odchylenie standardowe | Współczynnik zmienności | Skośność | Kurtoza | |
|---|---|---|---|---|---|---|---|---|
| WIN% | 0.500 | 0.488 | 0.171 | 0.841 | 0.191 | 38.179 | -0.066 | -1.249 |
| FG% | 0.455 | 0.454 | 0.422 | 0.504 | 0.017 | 3.745 | 0.549 | 0.416 |
| 3P% | 0.360 | 0.360 | 0.319 | 0.428 | 0.023 | 6.261 | 0.560 | 1.199 |
| FT% | 0.738 | 0.741 | 0.692 | 0.778 | 0.022 | 3.011 | -0.015 | -0.991 |
| PTS | 96.903 | 97.200 | 87.500 | 103.100 | 4.056 | 4.186 | -0.471 | -0.465 |
Wnioski:
1) Proporcja zwycięstw drużyn waha się od 17.1% do 84.1%, ze średnią na poziomie 50%, co wskazuje na to, iż średnio dana drużyna ma 50% zwycieństw oraz 50% porażek na sezon. Drużyny mają dużą różnorodność skuteczności w tym sezonie. Zmienna WIN% charakteryzuje się dość wysoką zmiennością, a tym samym dużą różnorodnością wyników między drużynami.Skośność bliska zeru wskazuje na symetryczny rozkład, a ujemna kurtoza na bardziej płaski rozkład niż normalny.
2) Skuteczność rzutuów z gry wynosi od 42.2% do 50.4%. Odchylenie standardowe jest dość niskie, co wskazuje na stabilność tej statystyki między dużynami.Niski wso. zmiennosci potwierdza niewielkie róznice w skutecznosci rzutów. Rozkład bardziej spiczasty niż normalny, a dodatnia skośność wskazuje na prawostronną asymetrię.
3) Procent rzutów za trzy punkty wynosi od 31.9% do 42.8%, co wskazuje na dość wysoką skuteczność w tej kategorii. Współczynnik zmienności sugeruje umiarkowaną różnorodność w skuteczności rzutów za trzy puntky.
4) Średnia skuteczność rzutów wolnych wynosi 73,81%, co jest wysokim wynikiem w tej kategorii. Niski współczynnik zmienności wskazuje na stabilność wyników między drużynami.
5) Średnia liczba punktów wynosi 96.9, z niskim odch. standardowym, co wskazuje na stabilność wyników punktowych między drużynami. Współczynnik zmienności sugeruje niską różnorodność.
2.3 Korelacja
Korelacje pomiędzy zmiennymi wskazują na brak współliniowości, a tym samym brak silnej zależności korelacyjnej między zmiennymi.
| WIN% | FG% | 3P% | FT% | PTS | |
|---|---|---|---|---|---|
| WIN% | 1.00 | 0.68 | 0.44 | 0.22 | 0.36 |
| FG% | 0.68 | 1.00 | 0.36 | 0.30 | 0.50 |
| 3P% | 0.44 | 0.36 | 1.00 | 0.34 | 0.17 |
| FT% | 0.22 | 0.30 | 0.34 | 1.00 | 0.41 |
| PTS | 0.36 | 0.50 | 0.17 | 0.41 | 1.00 |
2.4 Wartości odstające
Jak widać z powyższych wykresów boxplot, prawie żadna zmienna nie posiada wartości odstających, poza zmienną 3P%. Po przeprowadzeniu wstępnej analizy projektu, stwierdzam, iż wartości odstające dla tej zmiennej nieznacznie wpływają na wynniki PCA oraz MDS, dlatego decyduje się na pozostawienie tych wartości w obecnej formie.
3 PCA
3.1 Testy
Test Bartletta
Sprawdza, czy macierz korelacji różni się od macierzy jednostkowej. W macierzy jednostkowej zmienne są nieskorelowane (wartości na przekątnej to 1, reszta to 0). Służy do sprawdzenia, czy macierz korelacji wskazuje na wystarczające powiązanie zmiennych (hipoteza zerowa tego testu zakłada, że zmienne nie są ze sobą dostatecznie powiązane).
$chisq
[1] 36.00525
$p.value
[1] 8.400126e-05
$df
[1] 10
p-value posiada bardzo małą wartość, a więc odrzucamy hipoteze H0. Oznacza to, że zmienne są skorelowane w wystarczającym stopniu, aby PCA było sensowne.
Wskaźnik KMO (Kaiser-Meyer-Olkin)
Ocenia, czy próbka danych jest wystarczająco odpowiednia do analizy czynnikowej lub PCA. Oblicza proporcję wariancji wspólnej zmiennych względem wariancji całkowitej.
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = corr_matrix)
Overall MSA = 0.68
MSA for each item =
WIN% FG% 3P% FT% PTS
0.66 0.68 0.71 0.67 0.71
Overall MSA = 0.68 jest akceptowalne , ponieważ znajduje się powyżej poziomu 0.6, a tym samym można wskazać, iż wystarczająca ilość zmiennych współdzieli wystarczającą ilość wariancji.
3.2 Analiza PCA
- Aby wszystkie zmienne miały porównywalne jednostki, dokonuje się w pierwszym kroku standaryzacji zmiennych.
- Następnie na podstawie danych zestandaryzowanych oblicza się PCA, czyli przekształca się orginalne zmienne w nowy zestaw składowych głównych
Standard deviations (1, .., p=5):
[1] 1.5927004 0.9480927 0.9142624 0.6587410 0.5427802
Rotation (n x k) = (5 x 5):
PC1 PC2 PC3 PC4 PC5
WIN% -0.4983877 -0.4585188 0.1474117 -0.2635081 -0.67097203
FG% -0.5226758 -0.2127636 0.3192437 -0.2726379 0.71084014
3P% -0.3938671 -0.2787121 -0.7163867 0.4855615 0.13493868
FT% -0.3722032 0.6721104 -0.4039849 -0.4901785 -0.07907911
PTS -0.4298293 0.4637664 0.4471460 0.6165931 -0.14156578
- PCA porządkuje składowe według tego, ile wariancji każda z nich wyjaśnia.
[1] 2.5366945 0.8988798 0.8358757 0.4339397 0.2946104
Importance of components:
PC1 PC2 PC3 PC4 PC5
Standard deviation 1.5927 0.9481 0.9143 0.65874 0.54278
Proportion of Variance 0.5073 0.1798 0.1672 0.08679 0.05892
Cumulative Proportion 0.5073 0.6871 0.8543 0.94108 1.00000
- Wykres przedstawiający proporcję wariancji wyjaśnianej przez kolejne składowe.
Istnieje wiele metod wyboru składowych. Postanawiam wybrać tyle składowych by wyjaśniały z góry ustaloną część zmienności = 80%.
Pierwsza składowa wyjaśnia 50.7% całkowitej wariancji. Dwie pierwsze składowe razem wyjaśniają 68.71%. Natomiast trzy pierwsze składowe zachoują 85.4%, co oznacza, że redukcja wymiaru do 3D zachowuje dużą część informacji.
Tym samym należy zachowować pierwsze 3 składowe z wynikiem 85,4%.
3.2.1 Wektory własne
- Następnie sprawdza się udział poszczególnych zmiennych w składowych głównych
PC1 PC2 PC3 PC4 PC5
WIN% -0.4983877 -0.4585188 0.1474117 -0.2635081 -0.67097203
FG% -0.5226758 -0.2127636 0.3192437 -0.2726379 0.71084014
3P% -0.3938671 -0.2787121 -0.7163867 0.4855615 0.13493868
FT% -0.3722032 0.6721104 -0.4039849 -0.4901785 -0.07907911
PTS -0.4298293 0.4637664 0.4471460 0.6165931 -0.14156578
6) Poniższe wykresy udziału zmiennych w każdej składowej pomagają zidentyfikować najważniejsze zmienne.
1) PC1:
Największe znaczenie mają zmienne FG% i WIN%. Wszystkie zmienne mają wartości ujemne, co oznacza, że są skorelowane w podobnym kierunku.
2) PC2:
Największy udział mają zmienne FT% i PTS, oraz nieco w mniejszym stopniu WIN%. Ta składowa reprezentuje różnice między skutecznością rzutów wolnych a liczbą punktów.
3) PC3:
Największy znaczenie w tej składowej ma zmienna 3P%. Ta składowa opisuje głównie udział skuteczności rzutów trzypunktowych w wyjaśnianiu danych.
4) Udział składowych 1-3
Jak widać z powyższej grafiki, FT% oraz 3P% mają największy wkład w wyjaśnienie zmienności w pierwszych trzech składowych głównych, te zmienne są szczególnie istotne dla różnicowania danych w przestrzeni PCA. Zmienne WIN%, PTS, FG% również znacząco przyczyniają się do wyjaśnienia zmienności, ale ich wkład jest nieco mniejszy niż FT% i 3P%.
3.2.2 Ładunki czynnikowe
7) Ładunki czynnikowe:
PC1 PC2 PC3
WIN% -0.7937823 -0.4347183 0.1347730
FG% -0.8324659 -0.2017196 0.2918725
3P% -0.6273122 -0.2642450 -0.6549654
FT% -0.5928082 0.6372230 -0.3693482
PTS -0.6845893 0.4396935 0.4088088
Współrzędne końca wektora to odpowiadające im ładunki czynnikowe zmiennych. Jak widać z ilustracji i tabeli ładunków czynnikowych, prawie wszystkie wartości w PC1 i PC2 są ujemne poza wartosciami Dim2 dla PTS i FT%. Dłuższe wektory takie jak WIN% i FG% oznaczają większą informacyjność zmiennej. Wektory wskazują podobne kierunki są silnie skorelowane dodatnio, np: WIN% i FG%, natomiast skierowanie WIN% i FT% wskazuje na słabe skorelowanie dodatnie. Małe kąty między FG%, 3P% i WIN% wskazują na silną korelację, jak również między PTS i FT%. Jednak już kąt np: między WIN% a FT% wskazuje na słabszą korelacje tych zmiennych. Pierwsz składowa wyjaśnia 50.7% zmienności, natomiast druga składowa 18% zmienności, co łącznie daje wynik 68.7%.
3.2.3 Zasób zmienności wspólnej
- Kwadraty współczynników korelacji
PC1 PC2 PC3 Total
WIN% 0.6300903 0.18898001 0.01816376 0.8372341
FG% 0.6929995 0.04069079 0.08518955 0.8188799
3P% 0.3935206 0.06982540 0.42897965 0.8923257
FT% 0.3514215 0.40605317 0.13641811 0.8938928
PTS 0.4686625 0.19333041 0.16712462 0.8291175
Sumując wartości w wierszach, można określić, jaka część całkowitej wariancji zmiennych pierwotnych jest wyjaśniana przez składowe główne.
Procent wariancji zmiennej pierwotnej wyjaśniony przez składowe główne: - WIN% 84% - FG% 82% - 3P% 89% - FT% 89% - PTS 83%
Jak widać wszystkie zmiennej są wyjaśniane przez składowe główne powyżej 80%, co stanowi dość dobry wynik.
PC1 Największy zasób wspólnej zmienności wyjaśniają zmienne FG% i WIN%, co potwierdza ich kluczowy wpływ na PC1.
PC2 FT% wyjaśnia największą część zmienności wspólnej PC2. PTS oraz WIN% mają mniejszy wpływ.
PC3 Największą zmienność wspólną z PC3 wyjaśnia zmienna 3P%, co wskazuje na jej istotność dla tej składowej.
3.2.4 Wnioski z PCA
Celem PCA jest wyjaśnienie większości zmienności w zbiorze danych przy użyciu mniejszej liczby zmiennych.
Pierwsze składowe główne (PC1, PC2, PC3) wyjaśniają większość wariancji danych. Na podstawie powyższej analizy można zauważyć, iż PC1 wyjaśnia 50.7%, PC2 18%, a PC3 kolejne 16.7%. Oznacza to, że trzy pierwsze składowe pokrywają razem 85.4% całkowitej zmienności danych, co sugeruje, że są wystarczające do reprezentacji danych. Pozostałe składowe mogą mieć niewielki wpływ i być mniej istotne.
Wektory (ładunki czynnikowe) wskazują na najważniejsze zmienne w analizie: - WIN%, FG% są kluczowe dla PC1, co sugeruje, że te zmienne mają największy udział w różnicowaniu obserwacji w pierwszej składowej. - FT% jest istotna dla PC2 i reprezentuje dodatkowy wymiar informacji, niezależny od PC1. - 3P% jest ważna dla PC3 Dla analizy oraz struktury danych te zmienne są najbardziej informacyjne. Natomiast najważniejszymi zmiennymi w pierwszych 3 składowych są FT% oraz 3P%.
4 MDS
Interpretacja współczynnika STRESS: - >20% dopasowanie bardzo słabe - 10-20% dopasowanie słabe - 5-10% dopasowanie średnie - 2-5% dopasowanie dobre - 0-2% dopasowanie bardzo dobre - 0% dopasowanie idealne
4.1 Klasyczne skalowanie wielowymiarowe
Ideą klasycznego skalowania wielowymiarowego jest zmniejszenie wymiaru danych przy jak najmniejszym zniekształceniu prawdziwych odległości.
\text{STRESS} = \sqrt{\frac{\sum_{i,k} (d_{ik} - \hat{d}_{ik})^2}{\sum_{i,k} d_{ik}^2}}
- W pierwszej kolejności oblicza się macierz odległości
- Następnie oblicza się współczynnik STRESSU i na jego podstawie decyduje o redukcji wymiaru.
STRESS mierzy stopień zniekształcenia. Im mniejszy, tym lepiej odwzorowane są odległości.
4.1.1 Wymiar R
[1] 0.4478183
STRESS równy 0.45 oznacza słabe dopasowanie, w ziązku z czym zwiększam wymiar.
4.1.2 Wymiar R^2
[1] 0.2669325
STRESS równy 0.27 również oznacza bardzo słabe dopasowanie, należy ponownie zwiększyć wymiar
4.1.3 Wymiar R^3
[1] 0.1302478
STRESS równy 0.13, oznacza to dopasowanie słabe. Jednak nie zwiększamy wymiaru ponieważ jest to ostatni rozsądny wymiar do interpretacji. Jak widać z wizualizacji dane są dość rozproszone co może wynikać z słabego dopasowania. Jednakże można zauważyć pewne grupy. Większość klubów skupia się w centrum co wyniki z podobnych statystyk, oraz podobnej skuteczności drużyn, jednak widocznych jest parę odstępstw. Przykładowo drużyny Dallas Mavericks oraz San Antonio Spurs charakteryzują się podobnymi cechami, podobny procent wygranych, niemal identyczna liczba punktów. Można również zauważyć, iż drużyna Charlotte Hornets znajduje się daleko od centrum, drużyna ta charakteryzuje się najlepszą skutecznością rzutów za 3 punkty co znacząco wpływa na jej położenie. Drużyna Cleveland Cavaliers również nieco odstaje od centrum, ma najmniejszą liczbę punktów w tabeli. Również można wyądrębnić grupę z drużynami Phoenix Suns, Houston Rockets, Seattle SuperSonics, Chicago Bulls, Utah Jazz, grupa ta charakteryzuje się najwyższymi wynikami w liczbie punktów w tabeli oraz wysokim procentem wygranych w sezonie
Wnioski Najbardziej optymalne będzie zmieniejszenie wymiaru danych do trzeciego wymiaru, jednakże nadal jest to słabe dopasowanie.
4.2 Metoda skalowania Sammona
W metodzie tej wykorzystywane są odległości metryczne (często odległość euklidesowa). Kładzie większy nacisk na dokładne odwzorowanie małych odległości (odpowiedni dobór wag).
Rozwiązuje problem optymalizacyjny, w którym minimalizowany jest błąd:
E = \frac{1}{\sum_{i < j} d_{ij}} \sum_{i < j} \frac{(d_{ij} - \hat{d}_{ij})^2}{d_{ij}}
4.2.1 Wymiar R^3
[1] 0.02364176
Współczynnik STRESSU równy 0.02 oznacza bardzo dobre dopasowanie. Grupy i wykres podobny jak w metodzie klasycznej.
4.3 Porównanie i wnioski
| Dimensions | STRESS | Method |
|---|---|---|
| 1 | 0.4478183 | Classical MDS |
| 2 | 0.2669325 | Classical MDS |
| 3 | 0.1302478 | Classical MDS |
| 1 | 0.2379287 | Sammon’s Mapping |
| 2 | 0.0867046 | Sammon’s Mapping |
| 3 | 0.0236418 | Sammon’s Mapping |
W przypadku klasycznego skalowania wielowymiarowego, dla wymiaru 3 STRESS wynosi 0.1302, co oznacza słabe dopasowanie (10–20%). Ostatecznie wymiar 3 jest ostatnim rozsądnym wymiarem do analizy. Wyższe wymiary mogłyby poprawić STRESS, ale interpretacja takich przestrzeni jest nierozważna.
Jednak warto zwrócić uwagę, iż w przypadku metody Sammona, przy wymiarze 3 STRESS wynosi 0,02, co oznacza bardzo dobre dopasowanie. Metoda Sammona jest w tym przypadku znacznie lepsza pod względem dopasowania od klasycznego MDS.
5 Wnioski końcowe
W powyższym projekcie przeprowadzono dwie rówżne techniki analizy danych: PCA i MDS, w celu redukcji wymiarowości i eksploracji struktury danych.
Celem PCA było wyjaśnienie większości zmienności w danych przy użyciu mniejszej liczby zmiennych. Wyniki wskazują, że trzy pierwsze składowe główne (PC1, PC2, PC3) wyjaśniają łącznie 85.4% całkowitej wariancji danych, co czyni je wystarczającymi do reprezentacji zbioru danych. PCA pozwoliła na identyfikację najważniejszych zmiennych: WIN%, FG%, FT%, 3P%, które są kluczowe dla różnicowania obserwacji.
Skalowanie wielowymiarowe zastosowano w dwóch wariantach: klasycznym MDS oraz metodzie Sammona.Klasyczne MDS - W przypadku trzech wymiarów współczynnik STRESS wynosi 0.1302, co oznacza słabe dopasowanie.Metoda Sammona - Dla trzech wymiarów współczynnik STRESS wynosi 0.02364, co wskazuje na bardzo dobre dopasowanie. Metoda Sammona lepiej odwzorowuje lokalne relacje między obserwacjami.
Zaletą PCA jest zachowanie maksymalnej zmienności: PCA redukuje wymiar danych, jednocześnie maksymalizując ilość zachowanej wariancji. Wadą natomiast Brak uwzględnienia relacji nieliniowych: PCA zakłada liniowość w danych, co może prowadzić do niewłaściwego odwzorowania bardziej złożonych struktur.
Zaleta MDS jest odwzorowanie struktur lokalnych: MDS, szczególnie metoda Sammona, skutecznie odwzorowuje relacje między punktami w lokalnych obszarach. Wadą tej metody natomiast jest słaba interpretacja wyższych wymiarów: Wizualizacja wyników MDS jest trudna, gdy wymiar przekracza 3, co utrudnia analizę większych wymiarów.
Citation
@online{ziółkowski2024,
author = {Ziółkowski, Mikołaj},
title = {Projekt 1. {PCA} i {MDS}},
date = {2024-12-14},
langid = {en}
}